📖 MỤC LỤC BÀI VIẾT 📖
>>> Tải xuống:
- [EBOOK] 50 Góc nhìn về Đổi mới sáng tạo & Chuyển đổi xanh cho Doanh nghiệp
- Winning Accelerator Playbook 2026 by BambuUP
Sức mạnh của thị trường Embodied AI (AI hiện thân) được Goldman Sachs dự báo đạt khối lượng 38 tỷ USD vào năm 2035. Khi các bộ não AI với các mô hình ngôn ngữ lớn (LLM) được trang bị thêm “cơ thể” để tự quan sát, suy luận và xử lý công việc tay chân phức tạp, bài toán thiếu hụt lao động tay chân sẽ có lời giải mới.
Cùng Innovations of the Week tuần này bóc tách 4 mô hình Embodied AI từ các startup tiêu biểu trên thế giới:
-
1. AI suy luận ngữ cảnh qua thị giác và ngôn ngữ
Sự kiện mạng lưới robot của DHL vừa cán mốc 1 tỷ lượt lấy hàng – giúp tăng tốc độ xử lý đơn lên tới 180% và giảm 80% thời gian đào tạo – đã minh chứng sức mạnh khổng lồ của tự động hóa. Tuy nhiên, khi các đơn hàng thương mại điện tử ngày càng phức tạp và môi trường kho bãi luôn xáo trộn, những cỗ máy lập trình sẵn bắt đầu bộc lộ sự cứng nhắc. Thứ doanh nghiệp cần lúc này không phải là một cỗ máy học vẹt, mà là thế hệ “nhân sự AI vật lý” biết tự quan sát và tùy cơ ứng biến.
Nắm bắt chính xác cơn khát này, Figure đã nhanh chóng gia nhập đường đua embodied AI. Với sự thành công huy động số vốn 675 triệu USD và đạt định giá 2.6 tỷ USD, Figure đã có cái bắt tay lịch sử với những gã khổng lồ: Microsoft, NVIDIA, quỹ đầu tư của Jeff Bezos và đặc biệt là OpenAI. Hiện tại, Figure AI không còn nằm trên giấy mà đã được hãng xe BMW chính thức ký thỏa thuận để đưa vào làm việc tại nhà máy sản xuất ô tô ở Nam Carolina (Mỹ).

Sức mạnh thực sự của Figure 01 (sản phẩm robot AI của Figure) không nằm ở lớp vỏ kim loại mà ở bộ não được OpenAI chống lưng. Thay vì hoạt động theo những kịch bản định sẵn, Figure 01 sử dụng mô hình thị giác - ngôn ngữ (VLM).
Cách hệ thống này làm việc y hệt tư duy con người. Khi nhận được yêu cầu “Hãy dọn dẹp chiếc bàn này”, camera của robot sẽ thu thập hình ảnh và đưa về AI phân tích. Hệ thống tự lập luận: đâu là chiếc cốc cần cất vào rổ, đâu là rác cần vứt đi. Sau đó, bộ não AI tự động lên kế hoạch và chuyển hóa quyết định thành các cử động khớp tay tinh tế.
Điểm đột phá nhất đối với doanh nghiệp là mọi giao tiếp với hệ thống đều bằng ngôn ngữ tự nhiên. Khách hàng không cần thuê kỹ sư tự động hóa để lập trình lại mỗi khi thay đổi tác vụ; họ chỉ đơn giản là đang giao việc cho một nhân viên mới.
Đối với thị trường Việt Nam, nơi các xưởng gia công vừa và nhỏ khó tiếp cận các hệ thống tự động hóa triệu USD, cách tiếp cận của Figure AI chính là lời giải. Với thiết kế hình người, Figure 01 có thể đi vào làm việc ngay trên nền tảng nhà xưởng hiện hữu. Giá trị nhất là doanh nghiệp Việt không cần thuê đội ngũ kỹ sư viết code đắt đỏ mỗi khi thay đổi tác vụ. Khả năng tự suy luận và học việc thông qua quan sát của Figure cho phép họ dễ dàng điều chuyển cỗ máy này qua hàng loạt quy trình khác nhau, đáp ứng sự biến động liên tục của các đơn hàng mang tính mùa vụ.
-
2. Robot AI linh hoạt giữa sự hỗn loạn của kho bãi
Trong một kho hàng thương mại điện tử, môi trường luôn biến động liên tục: xe nâng qua lại, hàng hóa xê dịch, ánh sáng thay đổi. Các dòng robot hay xe tự hành cũ vốn hoạt động bằng các kịch bản lập trình sẵn (prescriptive protocols) để lặp đi lặp lại một chuyển động. Nhưng chỉ cần một chiếc hộp rơi chắn đường hay một kiện hàng lệch trọng tâm, cỗ máy sẽ báo lỗi và đứng im. Điểm nghẽn của logistics chính là sự cứng nhắc này.
Giải pháp mới của Agility Robotics được kỳ vọng sẽ giải quyết triệt để nút thắt đó. Agility Robotics là cái tên được săn đón hàng đầu với sự hậu thuẫn trực tiếp từ quỹ đầu tư công nghiệp của Amazon (Amazon Industrial Innovation Fund) và Ford. Không chỉ dừng ở các video demo, họ đã xây dựng thành công RoboFab - nhà máy sản xuất robot hình người quy mô công nghiệp đầu tiên trên thế giới tại Oregon (Mỹ), sẵn sàng tung ra thị trường 10.000 nhân sự Digit mỗi năm.

Thế hệ Digit mới nhất đã được Agility Robotics cập nhật thêm “ngăn xếp AI” (AI stack) với 3 lớp mô phỏng tư duy con người, kết hợp nhịp nhàng giữa nhận thức, kỹ năng và điều khiển. Đầu tiên, ở lớp Nhận thức, hệ thống sử dụng các mô hình Tầm nhìn - Ngôn ngữ - Hành động (VLA) để AI tự đánh giá ngữ cảnh xung quanh và lên kế hoạch công việc.
Tiếp đó, để rèn luyện kỹ năng, Agility ứng dụng phương pháp học từ làm mẫu. Cụ thể, kỹ sư sẽ đeo kính VR, hóa thân thành robot để thực hiện các thao tác bốc dỡ khó, qua đó, hệ thống ghi nhận cách con người phản xạ tự nhiên (như hành động điều chỉnh lại lực nắm khi đồ vật bị trơn trượt) và biến nó thành kinh nghiệm cho Digit.
Thông qua hợp tác với nền tảng NVIDIA Isaac Lab, cỗ máy sử dụng thuật toán học tăng cường (RL) để tự luyện tập hàng triệu lần cách giữ thăng bằng trong môi trường mô phỏng mà không lo rủi ro đứt gãy phần cứng ngoài đời thực. Sự kết hợp xuyên suốt này tạo ra mô hình nền tảng điều khiển toàn thân (Whole-body control), mang lại cho Digit một trực giác vận động nhạy bén, cho phép cỗ máy tự động phản xạ lùi lại khi có xe ngang qua hoặc xoay xở mượt mà vào sâu bên trong các container chật hẹp.
Tại Việt Nam, sự bùng nổ của thương mại điện tử đang tạo ra áp lực khổng lồ lên các trung tâm phân loại hàng hóa. Đặc thù kho bãi trong nước thường có không gian chật hẹp, quy trình làm việc đan xen phức tạp giữa người và xe kéo. Việc ứng dụng giải pháp Embodied AI mang năng lực tự học và giữ thăng bằng tuyệt đỉnh như Digit mở ra cơ hội tự động hóa trong cả những điều kiện kém lý tưởng nhất. Các doanh nghiệp có thể triển khai lực lượng này vào các khâu tốn sức và dễ gây tai nạn như bốc dỡ hàng nặng, mà không cần mất hàng tháng trời lập trình lại hay quy hoạch lại cấu trúc kho bãi.
-
3. Siêu mô hình AI cung cấp “bộ não tự học” cho robot
Để dạy một cánh tay máy gắp đồ, kỹ sư phải thu thập dữ liệu và viết code cho đúng nhiệm vụ đó; nếu muốn đổi sang việc khác, họ phải làm lại từ đầu. Sự phân mảnh này khiến các cỗ máy bị cô lập, không thể chia sẻ kinh nghiệm cho nhau, đẩy chi phí vận hành lên mức khổng lồ. Nếu thế giới phần mềm đã có ChatGPT để xử lý mọi văn bản, thì thế giới phần cứng vẫn đang khắc khoải chờ đợi một “hệ điều hành chung” như thế.
Dù mới thành lập được 2 năm, Physical Intelligence (Pi) đã tạo ra một cơn địa chấn tại Thung lũng Silicon. Startup này hiện được định giá khoảng 5,6 tỷ USD (và đang đàm phán để vươn lên mốc 11 tỷ USD). Danh sách các nhà đầu tư của Pi chứng minh sức hút tuyệt đối của họ: Jeff Bezos, OpenAI, Thrive Capital và các nhà đầu tư thiên thần sừng sỏ như Lachy Groom.

Khác biệt hoàn toàn với các công ty sản xuất cơ khí, Pi tập trung phát triển phần mềm lõi với phiên bản đột phá mang tên π0.7. Sức mạnh cốt lõi của mô hình này nằm ở năng lực tổng quát hóa tổ hợp (combinatorial generalization).
Thay vì học thuộc lòng từng kịch bản, π0.7 có khả năng tái tổ hợp những mảnh kiến thức nhỏ đã học ở bối cảnh này để giải quyết một bài toán hoàn toàn mới ở bối cảnh khác. Một minh chứng kinh ngạc từ phòng thí nghiệm: robot của Pi chưa từng được huấn luyện về cách dùng nồi chiên không dầu. Nhưng bằng cách kết hợp dữ liệu từ thao tác đóng nắp hộp và đặt đồ vật vào trong, cộng thêm một câu lệnh hướng dẫn bằng giọng nói (y hệt như cách chỉ việc cho nhân viên mới), robot đã tự suy luận và thao tác nướng khoai lang thành công. Với π0, con người chỉ cần giao việc bằng ngôn ngữ tự nhiên và AI sẽ tự dịch mệnh lệnh đó thành các chuỗi cử động vật lý tinh tế.
Xu hướng tách rời bộ não và phần cứng này mở ra một lối đi cực kỳ tối ưu cho thị trường Việt Nam. Các kỹ sư và doanh nghiệp tự động hóa trong nước có thể tập trung toàn lực vào thế mạnh gia công cơ khí, sản xuất các khung phần cứng, sau đó ứng dụng các bộ não AI chung (như π0.7) để tích hợp vào sản phẩm. Điều này giúp các hệ thống tự động hóa made-in-Vietnam có thể nhanh chóng sở hữu trí tuệ đẳng cấp thế giới, thoát khỏi vòng lặp lập trình lại tốn kém và linh hoạt xử lý các bài toán đặc thù của nhà xưởng nội địa.
-
4. Bàn tay robot khéo như tay người nhờ thủy lực kết hợp AI
Chế tạo một cánh tay máy nâng được 1 tấn thép không khó bằng việc tạo ra một cỗ máy tự động hóa có thể luồn một sợi dây điện hay vặn một con ốc vít siêu nhỏ. Các công đoạn lắp ráp tinh xảo đòi hỏi xúc giác và sự linh hoạt của đầu ngón tay từ lâu đã là vùng cấm của tự động hóa, khiến các nhà máy phải phụ thuộc vào hàng ngàn lao động thủ công. Khi nguồn cung lao động phổ thông cạn kiệt, bài toán sống còn là tìm ra một cỗ máy có sức bền của kim loại, nhưng phải sở hữu đôi bàn tay khéo léo của con người.
Sanctuary AI (Canada) chính là lời giải hoàn hảo cho bài toán hóc búa đó. Là điểm sáng về sở hữu trí tuệ Embodied AI (AI hiện thân), nhờ sự kết hợp giữa hệ thống điều khiển Carbon (mô phỏng não người) và robot hình người Phoenix, startup này đã thu hút hơn 140 triệu USD đầu tư và chính thức hợp tác đưa robot vào dây chuyền sản xuất hạng nặng của Magna - gã khổng lồ ngành phụ tùng ô tô thế giới.

Đột phá lớn nhất vừa được Sanctuary trình diễn chính là đôi bàn tay tích hợp 21 bậc tự do. Thay vì dùng motor điện cứng nhắc, họ sử dụng hệ thống truyền động thủy lực nhỏ gọn, mang lại tốc độ, sức mạnh và khả năng dang các ngón tay linh hoạt vượt xa mọi loại robot hiện tại.
Nhưng phần hồn AI mới thực sự đáng kinh ngạc. Sanctuary đã chứng minh thành công về năng lực Zero-shot (Zero-shot in-hand manipulation). Khi yêu cầu robot tự động xoay một khối lập phương đạt góc độ chỉ định bằng các đầu ngón tay (không có lòng bàn tay đỡ), hệ thống đã thực hiện thành công 10 lần liên tiếp không làm rơi một lần nào. Điều đáng sợ là bộ não AI chỉ được huấn luyện hoàn toàn trong môi trường mô phỏng trước đó. Khi bước ra đời thực, nó làm được ngay lập tức (zero-shot) mà không cần chạy thử nghiệm. Năng lực truyền kiến thức từ không gian ảo ra môi trường vật lý với độ trễ bằng 0 này chính là nền tảng hoàn hảo để cỗ máy biết dùng công cụ và thực hiện các mũi lắp ráp phức tạp nhất.
Đối với Việt Nam - cứ điểm gia công điện tử và bán dẫn khổng lồ của thế giới, năng lực zero-shot và đôi tay thủy lực này mở ra một chương hoàn toàn mới. Doanh nghiệp lắp ráp vi mạch không còn phải e ngại việc robot làm hỏng các linh kiện siêu nhỏ. Hơn nữa, các mô hình AI này có thể được huấn luyện trong môi trường ảo và lập tức “đi làm” hiệu quả ngay ngày hôm sau. Đây sẽ là chìa khóa vàng giúp các nhà máy Việt Nam bù đắp lượng công nhân thao tác tinh xảo đang thiếu hụt
----------
Hà Phương